【CVPR】Self-supervised Video Transformer
发布日期:2023-03-17
返回
Self-supervised Video Transformer
分享人:郭静文
研究方向:视频动作分析
论文题目:Self-supervised Video Transformer
论文作者:Kanchana Ranasinghe; Muzammal Naseer; Salman Khan; Fahad Shahbaz Khan; Michael S. Ryoo
作者单位:扎耶德人工智能大学、澳大利亚国立大学
论文摘要:在本文中,我们建议使用未标记的视频数据对视频转换器进行自监督训练。从给定的视频中,我们创建具有不同空间大小和帧速率的局部和全局时空视图。我们的自监督目标试图匹配代表同一视频的这些不同视图的特征,以保持动作的时空变化不变。 据我们所知,所提出的方法是第一个减轻自监督视频转换器 (SVT) 中对负样本或专用内存库的依赖的方法。此外,由于Transformer模型的灵活性,SVT使用动态调整的位置编码支持单一架构中的慢速视频处理,并支持沿时空维度的长期关系建模。我们的方法在四个动作识别基准(Kinetics-400、UCF-101、HMDB-51 和 SSv2)上表现良好,并且在小批量下收敛得更快。代码公开在:https://git.io/J1juJ。
原文链接: